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摘 要 : [目的 /意义 ] 针对 现 有 弱 信 号 全 自动 识别 研究 尚 不 完善 的 问题 ,提出 基于 LDA-BERT 融合 模型 的 弱 信 号 全 自动 
识别 方法 。[ 方 法 /过 程 ] 基于 无 监督 的 LDA 主题 模型 对 文本 数据 集 进行 主题 分 类 ,构建 主题 和 术语 双 层 过 滤 函 
数 从 主题 分 类 的 结果 中 提取 早期 预警 信号 ,通过 紧密 中 心 度 、 主 题 权 重 以 及 主题 自 相关 性 三 大 度量 函数 评价 主题 
的 弱 性 ,并 基于 主题 内 术语 的 归 一 化 频率 和 概率 提取 出 弱 信 号 。 最 后 ,运用 BERT 深度 学 习 模 型 从 语义 层面 对 弱 
信号 上 下 文 及 其 类 似 词 进行 扩展 。 [ 结果 /结论 ] 以 2021 年 1 月 初 疫情 重 爆 发 事件 为 例 , 使 用 爆发 前 三 月 的 社交 
媒体 新 闻 数 据 集 对 构建 的 系统 模型 进行 验证 。 实 验 结 果 表 明 ,该 方法 可 有 效 检测 出 相关 弱 信 号 ,并 挖 气 出 弱 信 号 


的 结果 可 解释 能 力 。 
il: 弱 信 号 LDA-BERT 融合 模型 ”新 冠 肺 炎 疫 情 
号 : G250 


随时 间 推 移 逐 渐 增 强 的 演化 特性 。 此 外 ,该 融合 模型 在 实现 弱 信 号 全 自动 识别 的 同时 ,也 表现 出 较 单 一 模型 更 强 
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全 在 大 数据 时 代 的 背景 下 ,人 们 的 决策 行为 更 多 依 
让 所 获取 数据 及 信息 的 分 析 , 而 不 是 仅 凭借 直觉 和 
经 验 , 竞 争 情报 作为 构建 数据 及 信息 分 析 的 基础 ,其 获 
耽 禾 集 与 识别 工作 至 关 重 要 "" 。 弱 信号 是 竞争 情报 
前 崎 性 研究 中 的 重要 组 成 部 分 ,为 决策 者 预测 未 来 的 
机 容 与 风险 提供 有 益 参 考 。 弱 信号 与 大 多 数 信 息 一 
致 6 都 是 从 大 量 的 数据 中 提取 而 出 ,通过 合理 的 推断 与 
联系 ,形成 对 人 类 有 价值 的 信息 ,但 由 于 其 具有 预见 性 


究 使 用 一 种 广为人知 的 主题 模型 , 即 潜在 狄 利克 雷 分 
Ai (Latent Dirichlet Allocation, LDA), LDA 是 一 种 无 监 
督 的 机 器 学 习 技术 ,可 根据 输入 的 文档 集 及 指定 的 主 
题 数 来 独立 运行 ,不 需要 手工 标注 的 训练 集 ,在 弱 信 和 号 
识别 过 程 中 可 实现 全 自动 地 从 数据 集中 抽取 出 主题 及 
主题 所 对 应 的 关键 词 。 

而 LDA 主题 模型 的 提取 结果 并 非 都 为 弱 信 号 , 仍 
存在 具有 明确 分 类 指向 的 强 信号 和 无 法 揭示 出 具体 含 
义 的 噪声 信号 5 ,因此 ,为 检测 出 隐藏 .重要 且 被 限定 
为 弱 信 号 的 单词 还 需 进 一 步 对 其 过 滤 。 同 时 ,由 于 弱 


的 特点 ,也 被 称 为 预警 信号 ,忽视 弱 信 号 就 是 轻视 其 
至 压制 可 能 阻止 错误 决策 的 警示 信号 ,如 同 驾 车 闻 红 
灯 , 定 会 导致 失败 ”""。 因 此 , 弱 信 号 的 识别 研究 对 决策 
者 及 时 感知 市 场 的 机 遇 与 威胁 ,制定 利于 长 远 发 展 的 
管理 决策 有 一 定 的 现实 意义 。 

目前 ,识别 弱 信 号 并 预测 未 来 情况 已 成 为 许多 研 
究 人 员 的 目标 ,许多 技术 用 于 从 词 或 文档 中 获得 最 大 
洞察 力 , 但 大 多 需要 人 类 专家 的 协助 检测 。 传 统 的 主 
题 建 模 技 术 显示 了 其 完全 自动 化 的 能 力 ” ,因此 ,本 研 


信号 具有 稀有 微量 的 特点 ,导致 提取 出 的 弱 信 和 号 数量 
BRO 。 为 充分 地 对 弱 信号 进行 自动 化 检测 ,本 研 
究 提 出 一 种 基于 LDA-BERT 融合 模型 的 弱 信 和 号 全 自动 
识别 方法 ,通过 构建 主题 和 术语 双 层 过 滤 函 数 , 从 LDA 
主题 分 类 的 结果 中 提取 早期 预警 信号 ,通过 紧密 中 心 
度 .主题 权重 以 及 主题 自 相 关 性 三 大 度量 函数 对 主题 
进行 过 滤 ,并 基于 主题 内 术语 的 归 一 化 频率 和 概率 提 
取出 弱 信 号 。 最 后 ,为 弥补 LDA 词 袋 模型 的 不 足 , 增 
强 模型 结果 的 可 解释 性 ,本 文 运用 BERT 方法 对 每 个 
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过 滤 后 的 主题 文档 进行 上 下 文 的 预测 ,以 获得 更 多 与 
弱 信 号 语义 相关 的 单词 。 将 该 模型 应 用 于 社交 媒体 新 
闻 数 据 集 , 以 检测 2021 年 1 月 初 疫情 重 爆 发 的 相关 弱 


信号 。 
2 相关 研究 


“ 弱 信 号 ”最 早 由 H. Igor Ansoff 在 1975 年 提出 ， 
并 将 其 定义 为 “未 来 可 能 发 生变 化 的 症状 "5 。 他 认 
为 弱 信号 是 对 外 部 或 内 部 的 警告 ,这 些 警 告 具有 不 完 
整 性 ,无 法 准确 预 估 其 影响 ,一 个 组 织 要 及 时 应 对 不 确 
定 的 环境 ,就 必须 提前 做 好 准备 ,对 可 能 蕴含 威胁 和 机 
会 的 信息 迹象 作出 反应 ””。 此 后 ,B. Coffman P. 
Rossel „S. Mendona 等 学 者 对 弱 信 号 的 概念 做 出 了 进 一 
步 的 补充 ,他 们 认为 弱 信 号 具有 以 下 特征 :不 易 追 踪 ， 
与 灾 杂 的 噪声 难以 区 分 ;琐碎 、 易 被 忽视 , 却 对 未 来 可 


能 造成 重大 影响 ;未 来 改变 和 趋势 的 早期 线索 "mn 
5 我国 弱 信号 的 相关 研究 起 步 较 晓 ,但 也 提出 了 相 
对 党 刻 的 见解 。 沈 固 朝 认为 弱 信 号 是 通过 对 组 织 竞 争 
环境 中 迹象 的 观察 ,业内 人 员 意见 的 分 析 ,对 未 来 的 趋 
k 其 判断" 。 单 彬 总 结 出 弱 信号 “ 弱 "的 
吗 江 原因 :GD 能 被 感知 的 弱 信 号 量 较 少 ;@@ 有 效 的 信息 
难 取 被 捕获 ;@@ 误 导 或 虚假 信号 与 有 效 信息 并 存 ;@ 收 
全 伪 号 的 成 本 和 精力 有 限 ""。 赵 小 康 指出 弱 信 号 具 
有 硬 生 长 过 程 中 表现 渐 趋 明显 ,确定 性 不 断 增 加 、 包 含 
的 将 效 信息 量 逐 步 丰富 、 作 为 决策 依据 的 情报 价值 持 
续 间 高 4 项 主要 特征 "5 。 

"三 目前 , 弱 信 号 的 识别 过 程 缺乏 自动 化 ,大 多 研究 依 
PEP LMARE REM”. W I. Griol-Barres 等 利用 
科学 ,新闻 和 社会 来 源 的 异 构 和 非 结构 化 信息 对 弱 信 
号 进行 定量 检测 ,应 用 多 词 共 现 分 析 法 对 人 工 挑选 的 
部 分 关键 词 进行 分 析 , 并 通过 自然 语言 处 理 提取 准确 
WRR, J. Yoon 提出 一 种 在 专家 给 定 关键 字 的 


单词 ”。B. Dieng Adji 等 提出 一 种 相信 式 主题 模型 ， 
该 模型 将 常规 主题 模型 与 单词 移入 结 合 在 一 起 。 但 
是 ,与 未 标记 的 数据 相 比 ,这 些 技术 在 应 用 于 标记 的 数 
据 时 可 提供 更 好 的 结果 “-” 。 而 在 Web 文章 中 检测 
弱 信 和 号 的 情况 下 ,文本 数据 通常 没有 标签 。 因 此 ,基于 
深度 学 习 的 NLP 技术 不 能 确保 弱 信 和 号 检测 过 程 的 完 
全 自动 化 。 

弱 信 号 检测 的 全 自动 化 研究 尚 处 于 起 步 阶 段 , 相 
关 的 论文 和 项 目 数量 较 少 , 在 全 自动 化 识别 过 程 中 主 
题 模 型 被 广泛 应 用 于 隐藏 信息 的 检测 。 如 工 . PEpin 使 
动态 LDA 检测 弱 信 号 , 即 对 不 同时 间 下 的 文本 使 用 
LDA 算法 提取 主题 ,并 使 用 主题 演化 的 可 视 化 散 点 
来 检测 弱 信 号 。T，Gutschei 提出 一 种 运用 动态 主 
题 建 模 和 时 间 序 列 分 析 对 弱 信 和 号 进行 自动 检测 和 预测 
的 方法 ,取得 了 较 好 效果 。 本 研究 遵循 与 其 相同 的 完 
全 自动 化 方法 ,选用 LDA 从 社交 媒体 新 闻 数 据 集 中 提 
取 主 题 及 主题 所 对 应 的 关键 词 信息 。 而 LDA 主题 模 
型 的 提取 结果 除了 弱 信 和 号 外 仍 存在 强 信 号 和 噪声 信 
号 ” ,因此 ,还 需 对 LDA 提取 结果 进一步 过 滤 。 此 外 ， 
庄 穆 妮 等 指出 LDA 词 袋 模型 的 不 足 , 即 在 LDA 中 一 篇 
文档 仅 为 一 组 单词 的 集合 , 词 与 词 没 有 先后 顺序 ,无 法 
很 好 地 结合 上 下 文 信息 。 针 对 此 问题 ,J Maitre 等 
提出 运用 Word2 Vec 方法 增强 LDA 主题 模型 ” ,以 获 
得 更 多 类 似 弱 信号 的 单词 。 但 L. Kahyun 等 在 比较 
NLP 领域 中 Word2Vec 和 BERT 算法 时 ,发 现 后 者 更 能 
体现 词语 在 语义 和 语法 方面 的 复杂 性 ,对 解决 一 词 多 
意 的 问题 更 有 帮助 , 即 在 LDA 模型 增强 中 表现 更 优 
异 。 

综 上 所 述 ,目前 关于 弱 信 号 识别 的 方法 存在 各 自 
的 局 限 性 ,主要 表现 在 提取 与 识别 过 程 中 多 依赖 人 类 
专家 的 协助 ,对 于 弱 信 号 全 自动 识别 的 方法 研究 尚 不 
完善 , 且 提 取 结 果 数 量 较 少 ,难以 挖掘 其 之 间 关 联 性 ， 


-I 


前 提 下 ,基于 文本 挖 据 的 弱 信 号 主题 识别 方法 ,并 通过 


导致 可 解释 能 力 不 高 ,预警 效果 并 不 十 分 理想 。 因 此 ， 


太阳 能 电池 相关 的 网 络 新 闻 报 道 , 说 明了 该 方法 的 可 
行 性 ”。 邓 胜利 等 通过 专家 给 定 系 数 下 的 层次 分 析 法 
和 隶属 度 函 数 对 弱 信 号 进行 定量 识别 。 这 些 方法 
需要 大 量 的 人 工 耗 费 , 且 使 得 弱 信 号 识别 的 结果 具有 
较 强 的 主观 特性 。 


为 实现 全 自动 弱 信 号 检测 ,弥补 单一 LDA 词 袋 模型 的 
不 足 , 增 强 识 别 模型 结果 的 可 解释 性 ,本 研究 将 引入 
BERT 模型 对 LDA 的 提取 结果 作 进 一 步 处 理 分 析 , 构 
建 LDA-BERT 融合 模型 ,在 对 主题 和 术语 进行 双 层 深 
度 过 小 的 同时 也 对 提取 出 的 弱 信 号 进行 语义 上 的 扩 


与 此 同时 ,学 者 们 也 着 力 于 运用 诸如 深度 学 习 和 
神经 网 络 之 类 的 技术 来 充分 对 互联 网 上 不 断 增 加 的 文 
本 数据 进行 预见 性 分 析 。 自 然 语 言 处 理 技术 (NIP) 能 
够 很 好 地 从 文本 数据 中 提取 见解 ” ,其 中 单词 嵌入 技 
术 能 精准 地 捕获 词语 之 间 的 相似 性 和 基于 上 下 文 预测 


展 ,以 获得 更 好 的 弱 信号 识别 效果 。 
3 弱 信 号 自动 识别 方法 框架 


3.1 方法 概述 
为 减少 人 类 专家 的 干预 ,设计 一 个 全 自动 弱 信 和 号 
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识别 方法 ,本 研究 考虑 使 用 与 主题 建 模 相关 的 无 监督 
文本 挖 气 技 术 。 其 中 ,LDA 常用 于 从 文本 数据 集中 提 
取 趋势 主题 。 与 依赖 关键 词 进行 弱 信 号 检测 “的 研究 
相 比 ,主题 模型 更 多 地 是 考虑 单词 代表 的 意义 ,而 不 是 
其 本 身 。 本 文 运用 LDA 主题 模型 寻找 可 能 导致 弱 信 
号 的 主题 ,但 不 接受 所 有 主题 中 都 含有 弱 信 号 ,也 不 认 
为 主题 中 的 所 有 术语 都 为 弱 信和 号, 即 除 弱 信 和 号 外 仍 存 
在 具有 明确 分 类 指向 的 强 信号 和 无 法 揭示 出 具体 含义 
的 噪声 信号 5 。 因 此 ,本 文 提出 主题 过 滤 和 术语 过 滤 
双 层 过 滤 模 型 ,用 于 仅 提 取 潜 在 的 弱 信 和 号。 其 中 , 主题 
过 滤 模 型 基于 紧密 中 心 度 .主题 权重 以 及 主题 自 相 关 
性 构建 主题 弱 性 评价 函数 ,并 基于 此 函数 值 提取 可 能 
包含 弱 信 号 的 主题 。 术 语 过 滤 模 型 用 于 从 主题 过 滤 提 
取 的 可 能 包含 弱 信号 的 主题 中 进一步 提取 弱 信号 相关 
术语 ,主要 依赖 于 主题 内 术语 的 归 一 化 频率 和 概率 判 
只 是 否 为 弱 信号 。 但 由 于 弱 信号 具 有 稀少 .微量 的 特 
嫩 导 致 提取 出 的 弱 信 号 数量 较 少 ,难以 发 气 其 之 间 存 
i IL SEREA E 力 不 高 。 为 解决 此 问 
题 s 寡 考 J. Maitre 等 运 ie Word2 Vec 模型 增强 提取 结 
AED 的 方法 ,并 采用 在 语 语法 方面 表现 更 优异 的 
李刚 ,以 获得 更 多 的 可 解释 性 预警 信息 。 

方法 的 框架 & 如 下 :收集 数据 ,本 研究 收集 了 一 
段 量 间 的 社交 媒体 新 闻 内 容 作为 弱 信 号 识别 研究 的 输 
/SS@ 弹 信号 识别 ,包括 数据 预 处 理 和 弱 信号 过 滤 两 
MBP. 数据 预 处 理 是 对 收集 的 文本 集 进行 去 停 用 词 、 
分 闻 操 作 。 弱 信号 过 滤 包 括 运用 LDA 主题 模型 识别 
了 是 .对 提取 出 的 主题 和 术语 过 滤 , 以 寻找 潜在 的 弱 主 
题 和 弱 信号 。@@ 弱 信号 输出 ,运用 BERT HRA 
来 增强 识别 出 的 弱 信 号 并 和 输出。 如 图 1 所 示 


1、 数 据 收集 BERT 模 型 增 
2, MAEM || 1、 去 停 用 词 |] ， ee oN 强 弱 信 号 
2、 分 词 处 理 


、 术 语 过 滤 


1 能 信 号 自动 识别 过 程 


3.2 数据 收集 和 预 处 理 

弱 信 号 识别 任务 中 ,文本 数据 集 的 质量 与 弱 信和 号 
检测 结果 的 准确 性 .预见 性 有 直接 的 关联 ,本 研究 运用 
python 工具 进行 数据 收集 和 预 处 理工 作 , 基 本 步骤 如 
F: 

(1) ASR SE IB H N A ERR, MAE 


网 中 收集 一 段 时 间 的 新 闻 数据 。 本 研究 以 社交 媒体 新 
闻 为 研究 对 象 , 因 其 具有 传播 范围 广 、 传 播 及 时 性 强 、 
传播 速度 快 等 特点 ,对 弱 信和 号 识别 而 言 是 较 优 的 数据 

(2) 文 本 集 清 洗 与 分 词 。 对 收集 的 新 闻 数 据 集 进 
行 基于 中 文 停 用 词 表 的 清洗 ,目的 是 过 滤 其 中 不 相关 、 
无 意义 以 及 非 文本 的 信息 。 并 运用 jieba 对 清洗 后 的 
数据 进行 分 词 ,最 终 得 到 可 用 于 系统 输入 的 数据 集 。 
3.3 基于 LDA-BERT 融合 模型 的 弱 信 号 自动 识别 
3.3.1 LDA 主题 模型 训练 

LDA 主题 模型 又 称 为 隐 含 狄 利克 雷 分 布 ,是 在 预 
先 规定 的 主题 数量 下 通过 最 大 化 词语 共 现 的 概率 从 文 
本 集中 查找 潜在 和 隐藏 的 信息 ,如 在 一 篇 新 闻 报道 中 
“足球 ”运动 "之 类 的 词 总 是 同时 出 现 , 即 可 把 其 归 为 
体育 类 。D. M. Blei 等 认为 LDA 能 很 好 地 对 文档 主题 
进行 抽取 。LDA 主题 模型 的 主要 挑战 之 一 是 确定 
最 优 的 主题 数 k, 主题 数 过 多 会 导致 主题 分 布 不 够 集 
中 ,主题 之 间 相 似 性 较 高 ,主题 题 数 过 少 则 导致 主题 的 内 
容 过 于 宽泛 ,没有 明确 的 分 类 指向 ”。 超 参数 w 和 
的 值 分 别 表 示 文 档 主 题 密度 和 单词 主题 密度 ,它们 在 
建立 主题 和 术语 之 间 的 一 致 性 上 发 挥 着 重要 作用 。 

目前 ,研究 人 员 提 出 确定 最 佳 主题 数 大 的 主流 方 
法 有 困惑 度 法 和 一 致 性 法 。 困 惑 度 值 越 小 , 则 主题 分 
类 的 结果 越 优 ,但 赵 凯 等 学 者 在 进行 主题 分 类 时 发 现 
随 着 主题 数量 的 增加 ,其 模型 困惑 度 值 逐 渐 递 减 , 难 以 
确认 最 佳 主题 数 hr” 。 与 此 同时 , 黄 佳 佳 等 学 者 提出 
用 一 致 性 法 来 权衡 主题 质量 ,并 发 现 基于 此 提取 
出 的 主题 具有 较 高 的 可 解释 性 ,因此 本 研究 遵循 这 种 
方法 ,并 应 用 ”提出 的 主题 相关 性 度量 值 c_" 来 确定 
最 佳 主题 数 。 

为 了 找到 一 致 性 最 高 的 模型 ,本 研究 采用 控制 变 
量 法 进行 测试 ,每 次 运行 仅 改变 主 题 数 的 值 ,并 保持 
其 他 参数 值 不 变 。 使 用 cov 值 作为 一 致 性 度量 ,并 基 
于 滑动 窗口 .标准 化 点 互信 息 (NPMI) 和 余弦 相似 度 确 
定 其 值 , 然 后 返回 一 致 性 度量 最 高 的 主题 数 作 为 模 
型 的 最 优 结 
3.3.2 ”主题 过 滤 

本 节 中 提出 的 主题 过 滤 函 数 , 有 助 于 评估 主题 含 
有 弱 信 和 号 的 可 能 性 ,并 用 于 对 LDA 主题 模型 提取 出 的 
主题 进行 过 滤 ,该 方法 由 Logistic 函数 推导 而 出 。Lo- 
gistic 函数 常用 于 说 明 人 口 的 进步 和 增长 ,但 在 语言 学 
中 被 用 来 模拟 语言 变化 ,一 个 边缘 的 术语 随 着 时 间 的 
推移 其 传播 速度 会 增加 ,但 如 果 它 是 弱 信 号 ,传播 速度 
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增加 后 将 仍 处 于 边缘 状态 ”。 基 于 此 ,本 研究 将 从 主 
题 自身 分 布 特性 及 主题 发 展 特性 两 方面 着 手 , 创建 主 
题 弱 性 评价 函数 ,挖掘 自身 表现 弱 的 主题 ,如 表现 出 与 
其 他 主题 关联 不 紧密 ,在 主题 分 布 中 占 比 不 高 等 特点 ， 
且 在 发 展 中 长 时 间 处 于 边缘 状态 的 主题 。 定 义 如 下 三 
大 度量 函数 函数 以 确定 主题 的 弱 性 :紧密 中 心 度 .主题 
权重 以 及 主题 自 相 关 函 数 。 

(1) 紧密 中 心 度 通过 主题 与 主题 之 间 的 距离 表示 
其 相似 性 。 许 多 距离 度量 可 以 用 来 计算 相似 性 ,如 
Jaccard 距离 .余弦 距离 和 Hellinger 距离 。L. Pépin 等 
学 者 发 现 当 距离 测量 呈现 出 S 形变 化 时 ,能 最 有 效 地 
表示 文本 之 间 的 相似 度 ” 。 基 于 此 原则 ,本 文选 用 
Hellinger 距离 计算 主题 z 的 紧密 中 心 度 CC(z) ,其 中 ,h 
表示 Hellinger 距离 : 


RR JE 1 : 
lis CC (2) >, h(z,z;) 式 (1) 


LO 〇 (C2) 主题 权重 模型 内 相关 主题 的 一 致 性 代表 着 主 


题 的 意义 分 配 。 因 此 ,本 文 基于 主题 : 的 一 致 性 和 所 
在 题 一 到 性 的 总 和 来 定义 主题 = 的 权重 值 W, 其 中 ， 
Colt) 表示 主题 = 的 一 致 性 大 小 ; 
(3) 自 相关 。 自 相关 性 是 目前 盛行 的 数据 趋势 分 
析 沪 具 , 趋 势 分 析 是 基于 以 往 数 据 对 未 来 可 能 发 生 情 
况 现 推测 , 它 量化 并 解释 了 随 着 时 间 的 推移 混乱 数据 
中 的 趋势 和 模式 。 自 相关 描述 了 同一 变量 在 不 同时 期 
之 竹 的 关系 , 即 变量 对 应 值 与 其 滞后 变量 对 应 值 线性 
相 恬 。 而 在 新 闻 数 据 集 中 ,与 某 个 主题 相关 的 文档 频 
率 姿 随 着 时 间 而 改变 ,因此 每 个 主题 在 几 天 内 的 自 相 
关 性 可 帮助 过 滤 出 可 能 不 包含 弱 信号 的 主题 。 自 相关 
函数 AC 定义 如 下 ,其 中 Coo(z), 是 主题 z 滞后 下期 的 
协 方差 ,far(z) 是 主题 z 的 方差 
es RG) 
利用 上 述 3 个 度量 函数 组 成 评判 主题 弱 性 的 函数 
WK, 其 函数 值 越 低 , 主 题 内 含有 的 术语 越 弱 , 但 当 其 足 
够 低 时 也 可 定义 为 噪声 。 定 义 主题 z 的 弱 函 数 如 下 : 


WK 2) = cca 式 (4) 


W(z) 


AC(z) = 


根据 弱 信号 的 定义 ,稀有 是 其 主要 特征 , 且 随 着 时 
间 的 推移 ,它们 的 运动 是 缓慢 的 。 因 此 只 有 WK 函数 
低 值 对 应 的 主题 才 被 认定 为 弱 主 题 。 根 据 帕 累 托 原 
则 , 弱 信 和 号 形成 的 信息 不 超过 20% , 且 人 类 专家 将 品 


声 的 阔 值 范围 定义 为 0% 至 2%" ,表示 文本 中 携带 无 


意义 信息 单词 的 概率 。 基 于 此 ,本 文 决定 忽略 WK eK 
数 的 低 值 情况 ,并 定义 新 的 筛选 阀 值 :噪声 低 于 1% ， 
弱 信 号 低 于 15% 。 文 本 中 的 信号 分 布 情况 如 图 2 所 
JR: 


100% 


强 信号 


图 2 文本 信号 分 布 


3.3.3 RETE 

基于 定义 的 主题 过 滤 函 数 能 提取 出 可 能 包含 弱 1 
号 的 主题 ,但 这 些 主题 内 的 术语 不 一 定 都 为 弱 信 和 号 ， 
此 本 节 将 探讨 如 何 从 这 些 术语 中 有 效 地 提取 弱 信 和 号。 

J. Chuang 提出 独特 性 和 显著 性 两 种 术语 衡量 标准 
来 判断 某 一 主题 中 术语 所 传达 的 信息 ,以 获得 可 理解 
的 主题 。 其 研究 发 现 单词 由 潜在 主题 生成 的 可 能 
性 与 主题 的 边际 概率 之 间 的 差异 产生 了 显著 性 ,而 该 
显著 性 是 属于 的 总 体 频率 和 独特 性 的 产物 。 同 时 ,C. 
Sievert 等 通过 主题 内 不 同 术语 的 相关 性 以 寻求 该 主题 
内 最 相关 的 术语 ” ,并 取得 相 比 于 概率 指标 更 优 的 结 
果 。 

综合 上 述 ,基于 术语 在 主题 中 的 概率 和 术语 与 主 
题 之 间 的 相关 性 ,本 研究 提出 一 种 新 的 术语 过 滤 函 数 
PW(w) ,其 中 ,NF(w) 是 主题 z 中 术语 w 的 归 一 化 频 
率 ,p(w) 表 示 主 题 w 中 术语 的 概率 。 
a 

同时 ,基于 3.3.2 主题 过 滤 中 所 述 , 弱 信号 具有 稀 
有 性 ,因此 本 文 仅 提取 PW 函数 值 在 1% 至 15% 的 项 。 
3.3.4 弱 信 号 输出 

在 主题 过 滤 和 术语 过 滤 两 层 过 滤 函 数 下 ,能 很 好 
地 对 弱 信 号 进行 识别 与 提取 ,此 外 对 结果 的 分 析 与 理 
解 也 至 关 重 要 。 而 弱 信 号 稀有 、 微 量 的 特点 导致 提取 
出 的 弱 信 号 较 少 ,为 进一步 获得 与 所 提取 弱 信 和 号 相关 
的 单词 ,提高 模型 结果 的 可 解释 性 ,本 研究 使 用 BERT 
深度 学 习 模 型 增强 弱 信 号 提取 结果 。BERT (双向 
Transformer 编码 表达 ) 模型 由 谷歌 2018 年 推出 ,以 
Transformer 算法 为 主要 框架 ,能 更 好 地 捕获 语句 中 的 
双向 关系 ,并 使 用 遮蔽 语言 模型 MLM (Mask Lan-guage 


ll 


PW(w) = 
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Model ) 和 句子 预测 NSP( Next Sentence Prediction ) 的 多 
FES WAG E to, ERN GAB AE 。 


其 中 BERT 的 模型 结构 如 图 3 所 示 : 


04.00517v1 


OR 3 中 ,一 个 Trm 表示 一 个 Transformer 编码 器 单 

LS 是 一 个 全 局 向 量 ,表示 文本 的 开始 ,SEP 为 文 
AEK, MASK 为 遮盖 字 。 将 提取 出 的 每 个 弱 信和 号 
单词 看 为 一 个 向 量 ,重建 单词 上 下 文 ,使 语料库 中 共享 
公正 上 下 文 的 单词 在 语义 空间 上 相互 接近 ,并 扩展 与 
提 咀 结果 相似 的 弱 信 号 。 将 弱 信 号 d; | wlj e 11,2, 
名 由 输入 BERT 模型 后 ,首先 在 词 向 量 (w) .文本 向 
TCS) 和 位 置 向 量 (p)3 个 维度 上 将 弱 信 号 中 的 每 个 字 
向 量化 为 wj(w +6 +p) ,再 传人 双向 Transformer 编码 
器 中 ,最 后 输出 融合 全 文本 语义 信息 的 向 量 集 d', = 
fw’ lie {1,2,.,m| |。 

该 方法 类 似 于 Word2Vec 中 的 Skip-gram 模型 , 即 
根据 当前 单词 来 预测 其 上 下 文 信息 ,但 不 同 的 是 BERT 
方法 较 Word2 Vec 方法 更 多 地 从 语义 和 语法 两 方面 进 
行 考量 , 且 具 有 更 丰富 .完善 的 语料库 ,使 其 在 单词 语 
义 扩 展 上 表现 更 优异 。 本 文 遵循 以 往 学 者 的 研 
gg 2s a] ,运用 基于 Google 预 训 练 集 的 Fine-tunning, 
将 每 个 过 滤 的 弱 信 号 作为 BERT 模型 输入 ,在 经 过 训 
练 后 输出 与 提取 弱 信 号 高 度 相似 的 单词 列表 ,以 突出 
基于 新 闻 数 据 集 提取 的 弱 信号 及 增强 弱 信 号 之 问 的 关 
联 性 ,获得 更 强 的 模型 可 解释 能 


4 ”实证 研究 
弱 信 号 在 竞争 情报 中 占有 重要 地 位 ,多 数 企 业 也 


3 BERT 模型 结构 


将 弱 信 号 识别 作为 其 发 展 的 重要 目标 。 本 研究 将 提出 
的 基于 LDA-BERT 融合 模型 的 弱 信 和 号 自动 识别 方法 应 
用 于 微 博 等 社交 媒体 发 表 的 网 络 新 闻 ,以 检测 2021 年 
1 月 初 疫情 重 爆发 的 早期 预警 信息 。 通 过 网 络 怜 虫 工 
具 收 集 2020 年 11 月 1 日 至 2021 年 1 月 10 日 的 社交 
媒体 新 闻 数 据 共 计 14 486 篇 ,并 运用 Python 开源 库 
jieba „Gensim 等 对 其 进行 分 词 .主题 建 模 和 自然 语言 
理 等 操作 。 
4.1 LDA 主题 模型 训练 结果 分 析 

为 找到 最 优 主题 模型 对 应 的 主题 数 大 ,本 研究 运 
用 Gensim 库 中 的 LdaModel 模块 和 pyLDAvis 可 视 化 工 
具 , 通 过 计算 不 同 主题 数 下 的 一 致 性 度量 c_v 值 及 其 
主题 分 布 情况 进行 综合 评判 。 

首先 ,本 文 对 已 进行 清洗 、 分 词 等 预 处 理 操作 的 
2020 年 11 月 1 日 至 2021 年 1 月 10 日 的 社交 媒体 新 
闻 数 据 集 进行 LDA 主题 建 模 。 其 次 ,运用 控制 变量 法 
测量 不 同 主题 数 上 下 的 一 致 性 度量 cv" 值 , 并 设 定 大 值 
的 范围 为 1 至 50。 最 后 , 绽 合 不 同 主题 数 正 的 一 致 性 
度量 c_v 值 及 其 主题 分 布 情况 选 出 LDA 主题 模型 对 应 
的 最 优 主题 数 。 模 型 结果 如 图 4 所 示 。 

主题 模型 的 一 致 性 指数 越 高 ,其 分 类 结果 越 
Oe? 。 如 图 4 所 示 , 当 主题 数量 上 值 为 5 或 9 时 ,模型 
的 一 致 性 指数 取得 较 高 值 ,同时 ,通过 比 对 不 同 正 值 下 
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的 主题 分 布 情况 ,发现 当 一 致 性 指数 较 低 时 (如 大 = 
20.34.50) ,其 主题 分 布 呈 现 出 不 均匀 、 且 主题 大 小 差 
异性 较 大 的 特点 。 因 此 ,通过 综合 分 析 一 致 性 度量 c_v 


值 及 主题 分 布 情况 ,本 文 认为 社交 媒体 新 闻 数 据 集 下 
的 LDA 主题 模型 最 优 主 题 数 上 值 为 9。 


0 5 10 
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aN 主题 过 滤 结 果 分 析 

CN 对 基于 LDA 主题 模型 提取 出 的 九 大 主题 ,通过 计 
算 紧密 中 心 度 .主题 权重 以 及 主题 自 相关 函 数 三 大 度 
量 丽 数 评 判 主题 的 弱 性 ,过 滤 出 可 能 包含 弱 信号 的 主 
aO 

.二 在 本 节 中 ,首先 计算 每 个 主题 与 其 他 主题 之 间 的 

ger 距离 ,得 到 一 个 9 * 9 的 距离 矩阵 以 测量 主题 

的 紧密 中 心 度 。 其 次 ,运用 Gensim 库 衡量 每 个 主题 的 
一 致 性 ,并 代入 权重 函数 WT) 以 确定 主题 的 权重 
最 后 基于 所 有 主题 每 天 的 文档 频率 计算 主题 的 自 相关 
函数 ,其 中 函数 滞后 期 的 确定 较为 关键 。 通 常 , 非 重重 
时 间 序列 的 自 相关 性 低 于 重 双 序列 的 自 相关 性 , 且 数 
据 越 不 重 关 ,其 自 相关 性 越 低 ,而 大 多 用 于 趋势 分 析 的 
样本 之 间 没 有 重 释 , 因 此 ,观测 较 长 滞后 期 的 变化 是 有 
A, 

在 弱 信号 检测 中 ,本 研究 希望 最 小 化 主题 
数值 , 即 WK 
较 高 的 洪 后 期 以 减少 时 间 序列 之 间 的 重 亚 周 
HAIE BOB AC 最 小 化 。 因 此 ,选择 所 观察 数据 周期 的 
一 半 作 为 自 相 关 函 数 的 最 佳 时 汪 , 即 将 滞后 期 定 为 
55 

以 上 三 大 度量 函数 函数 的 计算 都 离 不 开 所 有 主题 


o 


寸 


15 20 25 30 35 40 45 50 55 
主题 数 


4 不 同 主题 数 下 的 LDA 主题 模型 结果 


每 天 的 文档 频率 ,其 部 分 数据 如 表 1 所 示 : 
表 1 主题 文档 频率 部 分 数据 


日 期 Tl T2 T3 T4 T5 T6 T7 T8 T9 
2020.11.01 47 35 74 65 43 46 40 36 25 
2020.11.02 112 145 86 67 47 58 23 35 64 
2020.11.03 189 123 167 172 97 75 45 35 72 
2020.11.04 346 263 130 95 53 118 135 74 32 
2020.11.05 124 97 114 83 52 46 82 109 34 
2021.1.09 178 80 98 23 125 84 73 42 64 
2021: 1.10 93 42 6l 63 71 82 42 54 34 


图 5、 图 6 和 图 7 分 别 显示 了 2020 年 11 H 2020 
年 12 月 和 2021 年 1 月 的 主题 过 滤 结果 。 图 中 阴影 标 
记 的 是 可 能 包含 弱 信 号 的 主题 过 滤 结 果 , 这 些 主题 的 
WK 函数 值 高 于 结果 集 的 1% ,而 低 于 结果 集 的 15% 。 

以 月 为 观测 周期 ,通过 主题 过 滤 函 数 从 每 月 的 九 
大 主题 中 分 别提 取出 T3 T7 T 三 个 可 能 包含 弱 信 号 
的 主题 ,但 这 些 主题 内 的 术语 并 不 都 为 弱 信 号 ,因此 本 
文 还 将 通过 术语 过 滤 函 数 从 其 中 抽取 弱 信 号。 
4.3 术语 过 滤 结 果 分 析 

LDA 主题 模型 根据 每 个 主题 中 术语 出 现 的 概率 对 
其 进行 分 组 和 排序 。 为 尽 可 能 地 捕获 主题 内 的 弱 信 
号 ,需要 从 主题 中 获取 足够 多 的 术语 。 因 此 ,基于 主题 
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7 2021 年 1 月 主题 过 滤 结 果 


过 滤 结 果 , 本 文 分 别 从 2020 年 11 月 主题 T7 2020 年 

12 月 主题 T3 和 2021 年 1 月 主题 T9 中 提取 500 AR 

语 , 并 统计 每 个 术语 对 应 的 文档 频率 ,运用 术语 过 滤 函 

数 从 其 中 提取 出 弱 信 号 。 表 2、 表 3 和 表 4 分 别 列 出 主 
题 T7 .主题 T3 和 主题 T9 的 弱 信号 提取 结果 。 
表 2 2020 年 11 月 主题 T7 术语 过 滤 结 果 

主题 术语 过 滤 结 果 

1T7 持续 专家 高 实现 建立 国际 勋章 覆盖 严防 整改 必要 告诉 严 


Bi 运输 污染 百姓 会 晤 BE 协作 医疗 增加 恢复 年 底 免 
费 潜力 恶化 升级 疫苗 


表 3 2020 年 12 月 主题 T3 术语 过 滤 结 果 
主题 术语 过 滤 结果 
T3 ”历史 助力 重大 平等 温度 爆发 坚持 自 贸 区 通道 资本 全 球 性 

气候 变化 旅游 消费 制造 业 两 岸 循环 复苏 感染 冷冻 机 遇 媒 

体 安全 绿色 贫困 县 


表 4 2021 年 1 月 主题 T9 术语 过 滤 结 果 


主题 术语 过 滤 结果 
TO ”输送 健康 无 症状 联动 资金 BA 缓 缓 康复 紧急 河南 检测 持 
续 港口 政府 严重 投资 海军 典型 增长 崛起 创新 威胁 推广 生 


表 中 部 分 单词 已 表现 出 与 疫情 的 重 爆发 相关 (已 
加 粗 ) ,为 增强 模型 的 可 解释 性 ,运用 BERT 算法 对 过 
滤 出 的 术语 进行 上 下 文 预测 ,最 大 化 目标 单词 的 概率 。 
4.4 弱 信 号 提取 结果 分 析 

本 文 欲 挖掘 与 2021 E1 月 初 疫情 重 爆发 的 相关 
弱 信号 ,因此 ,选用 疫情 重 爆 发 前 3 月 的 社交 媒体 新 闻 
为 弱 信 号 提取 数据 集 , 尽 可 能 地 从 社交 媒体 新 闻 数 据 
集中 获得 更 大 的 洞察 力 。 因 此 ,为 弥补 LDA 词 袋 模型 
的 不 足 , 获 得 更 多 与 上 述 提取 弱 信 号 相关 的 单词 ,增强 
模型 结果 的 准确 性 .可 解释 性 ,本 研究 使 用 BERT 深度 
学 习 方法 在 语义 上 从 上 下 文 对 过 滤 出 的 术语 进行 扩 
展 ,赋予 弱 信 号 更 多 的 情景 信息 与 类 似 的 单词 。 本 研 
究 以 能 否 成 功 挖掘 疫情 重 爆发 的 早期 预警 为 能 信和 号 识 
别 模型 的 效 度 检验 ,而 表 2 中 “持续 "一 词 与 研究 的 内 
容 略 相关 ,对 其 进行 扩展 后 ,发 现 一 些 重要 的 弱 信 和 号， 
如 加剧“ 反弹 “恶化 “疾病 ”等 ,具体 扩展 列表 如 
表 5 所 示 : 

RS 主题 T3 中 “持续 ”术语 扩展 结果 
术语 扩展 单词 
持续 ”继续 延绵 不 断 产量 增长 连续 继续 价格 加 剧 反弹 恶化 蔓延 


形势 开展 更 新 经 济 国家 政策 疾病 状态 健康 时 间 常态 化 转 
变 巩固 稳定 


结合 现实 疫情 重 爆发 背景 可 知 , 自 2021 年 1 月 10 
日 起 ,以 河北 为 首 ,无 症状 感染 患者 急剧 增加 并 逐步 向 
其 周边 城市 扩散 ,致使 我 国 疫情 态势 又 重新 陷入 危机 
状态 。 在 本 研究 提取 的 弱 信 号 中 ,发 现 了 与 疫情 态势 
发 展 相关 的 预警 信号 ,如 在 2020 年 12 月 主题 T3 过 滤 
的 术语 中 ， 持 续 “ 恶 化 “增加 "之 类 的 弱 信 号 开始 向 
“爆发 “感染 ”复苏 "等 词 转变 ,而 在 2021 年 1 月 初 
主题 T9 过 滤 出 的 弱 信 号 中 已 变 为 紧急“ 严重”“ 威 
胁 " 等 词 。《 新 型 冠状 病毒 感染 的 肺炎 诊疗 和 防 控 方 
案 》 明 确 指 出 新 冠 病毒 惧怕 高 温 ,也 就 是 说 ,新 冠 病毒 
怕 热 不 怕 冷 ,气温 降低 反而 导致 疫情 态势 的 难以 控制 ， 
这 也 是 疫情 重 爆发 的 关键 因素 之 一 。 而 弱 信 和 号 提取 结 
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果 中 “气温 "“ 冷 并 "等 词 ,也 从 气温 转 冷 .病毒 传 播 等 
方面 对 疫情 重 爆 发 进行 了 预示 。 

此 外 , 随 着 时 间 的 推移 , 弱 信号 的 演变 呈现 出 以 下 
两 种 态势 : 

(1) 作为 前 期 弱 信 号 的 加 强 。 随 着 时 间 的 推进 ， 
部 分 弱 信和 号 单词 在 预测 程度 上 会 表现 出 一 定 的 增强 ， 
如 2020 年 11 H T7 中 提取 出 的 “疫苗 ”和 2021 年 1 月 
TO 中 提取 出 的 “感染 ” ,在 背景 上 确立 了 与 疫情 ,传染 
病 等 具有 传播 性 的 疾病 息息相关 ,结合 “爆发 恶化” 
“复苏 "等 表现 事态 发 展 程度 的 弱 信号 ,表现 出 疫情 形 
势 不 向 好 的 早期 预兆 ,而 这 一 预兆 随 着 时 间 变 化 不 断 
增强 ,2021 年 1 月 19 中 的 “严重 "“ 威 胁 "等 信号 更 是 
直接 警示 出 事态 的 严重 性 。 对 于 具有 此 类 特征 的 弱 信 
号 3 沁 策 者 要 综合 考量 一 段 时 间 的 发 展 趋势 ,车 发 现 上 
述 汪 疫 情 重 爆发 相关 的 不 向 好 弱 信号 ,应 及 时 采取 应 
对 = 防护 和 控制 措施 ,确保 社会 人 民 的 安全 。 而 对 于 正 
i 委 展 的 弱 信 号 如 2020 年 11 月 T7 中 的 “潜力 "“ 升 
级 32020 年 12 H T3 中 的 “资本 ”机 遇 ” 及 2021 年 1 
FAD 中 的 “崛起 “创新 "等 ,应 结合 自身 发 展 ,在 相应 
更 机 下 开拓 未 来 市 场 ,把 握 当 前 时 代 下 的 利好 政策 。 
ALD 作为 弱 信 号 的 类 似 词 。 如 前 所 述 , 弱 信号 微 
生生 有 的 特点 导致 提取 数量 较 少 ,从 而 增 大 分 析 其 与 
未 来 可 能 发 生 情况 关联 性 的 难度 ,运用 BERT 深度 学 
习 千 法 可 大 程度 地 丰富 检测 出 的 弱 信号 ,如 2020 年 11 


用 银 中 的 “增加 ”“ 严 防 "等 词 都 扩展 出 与 疫情 相关 的 
“次 病 …“ 流 行 病 "等 弱 信 号 ,警示 出 疫情 重 爆 发 的 早期 
信息。 此 类 纶 信号 是 原 数据 集 提取 弱 信 号 的 进一步 衍 
生 G 未 再 局 限于 原 数 据 集 的 限制 ,而 是 通过 深度 学 习 算 
法 将 弱 信号 之 间 的 关联 性 进一步 发 散 开 来 ,实现 部 分 
弱 信号 从 抽象 描述 到 具体 事项 的 跨越 过 程 。 

综合 上 述 ,本 研究 提出 的 基于 LDA-BERT 融合 模 
型 的 弱 信号 识别 方法 很 好 地 检测 出 2020 年 11 月 至 


预 处 理 后 的 社交 媒体 新 闻 数 据 集 进 行 主 题 分 类 ,并 提 
出 主题 过 滤 和 术语 过 滤 双 层 过 滤 函 数 分 别 用 于 从 LDA 
主题 模型 结果 中 过 滤 出 可 能 包含 弱 信 号 的 主题 ,以 及 
仅 从 主题 中 提取 可 能 为 弱 信 号 的 术语 。 其 中 ,主题 过 
滤 基 于 三 大 度量 函数 函数 评判 主题 的 弱 性 :紧密 中 心 
BEM Hellinger 距离 衡量 主题 与 主题 之 间 的 相似 性 , 主 
题 权重 以 一 致 性 大 小 衡量 主题 的 重要 性 , 自 相 关 性 在 
设 定 的 滞后 期 下 观测 主题 随时 间 的 演变 。 本 研究 不 接 
受 主题 过 小结 果 中 的 术语 丝 为 弱 信 号 ,因此 运用 术语 
过 滤 函 数 , 以 主题 内 术语 的 归 一 化 概率 和 术语 对 应 的 
文档 频率 构建 模型 , 仅 保留 其 中 潜在 的 弱 信 号 。 最 后 ， 
为 弥补 LDA 词 袋 模型 的 不 足 , 增 强 模型 的 可 解释 性 ， 
将 双 层 过 滤 函 数 的 结果 输入 BERT 深度 学 习 模 型 ,并 
输出 一 系列 早期 预警 信号 ,可 在 语义 上 扩展 单词 ,丰富 
提取 出 的 弱 信 号 ,从 上 下 文中 赋予 其 更 多 含义 。 对 该 
模型 进行 测试 ,以 识别 2021 年 1 月 初 疫情 重 爆 发 相关 
的 弱 信 号 。 利 用 2020 年 11 月 至 2021 年 1 月 的 社交 媒 
体 新 闻 数 据 ,本 文成 功 检 测 出 如 "爆发 “复苏 “恶化 ” 
等 相关 早期 预警 信号 ,并 归纳 总 结 出 弱 信 号 存在 的 两 
种 态势 :一 是 作为 前 期 弱 信 号 的 增强 ,二 是 作为 弱 信号 
的 类 似 词 。 同 时 ,以 月 为 周期 对 提取 出 的 弱 信 号 进行 
综合 分 析 , 发 现 其 随 着 时 间 的 推移 部 分 在 语义 上 会 逐 
渐 增 强 的 演化 特性 。 

本 模型 解决 了 当前 弱 信 号 识别 领域 研究 人 工 参 与 
较 多 ,主观 性 较 强 的 问题 ,实现 了 全 自动 化 的 弱 信 号 检 
测 过 程 ,大 大 减少 了 人 类 专家 的 时 间 和 成 本 。 同 时 提 
出 LDA-BERT 融合 模型 及 双 层 过 滤 函 数 ,在 保障 仪 提 
取 相 关 弱 信和 号 的 前 提 下 ,充分 合理 地 对 弱 信 号 在 语义 
上 进行 扩展 ,使 模型 结果 具有 较 高 的 解释 能 力 ,为 情报 
搜集 工作 中 的 弱 信 号 检测 提供 了 新 方法 、 新 思路 。 该 
方法 具有 如 下 优点 :中 泛 化 :提取 出 的 弱 信号 不 针对 某 
一 特定 领域 或 主题 ,而 是 在 指定 的 某 段 时 间 内 应 引起 


2021 年 1 月 的 社交 媒体 新 闻 数 据 集中 的 弱 信 号 ,同时 
对 其 综合 进行 分 析 与 理解 ,发 据 出 弱 信 号 随 着 时 间 的 
推移 部 分 在 语义 上 会 逐渐 增强 的 演化 特性 ,在 一 定 程 
度 上 为 预测 出 2021 年 1 月 初 重 爆发 的 疫情 态势 提供 
有 益 参 考 。 


5 _ 结语 


当前 , 弱 信 号 识别 存在 诸如 和 人工 参与 较 多 ,全 自动 
化 识别 方法 的 研究 尚 不 完善 及 模型 可 解释 能 力 不 高 等 
局 限 性 。 本 研究 提出 一 种 基于 LDA-BERT 融合 模型 的 
弱 信 号 自动 识别 系统 。 运 用 无 监督 学 习 算 法 LDA 对 


重视 的 预警 信息 ,决策 者 可 以 根据 自己 的 需求 选择 相 
关 的 弱 信 号 。@ 自 动 化 : 弱 信 号 的 提取 过 程 中 没有 人 
工 干 预 ,也 不 需要 关键 词 的 帮助 ,全 自动 地 对 文本 进行 
弱 信 号 检测 。@ 科 学 化 :创新 提出 双 层 过 滤 函 数 以 对 
主题 分 类 的 结果 进行 过 滤 ,避免 了 人 工 筛选 的 主观 性 ， 
使 其 更 趋 于 科学 ,规范 。 

此 外 ,本 研究 仍 存在 些许 不 足 :中 由 于 弱 信 和 号 与 噪 
声 都 具有 微量 、 当 前 意义 不 明确 .运动 缓慢 的 特点 , 导 
致 文本 去 品 工 作 开展 的 不 够 完全 ;@ 本 研究 通过 设 定 
较 长 的 小 后 期 ,运用 其 自 相 关 性 能 有 效 地 过 滤 出 部 分 
文本 噪声 ,同时 也 可 能 过 滤 出 少许 有 一 定价 值 的 弱 信 
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号 ,不 能 完全 无 损 地 从 文本 集中 对 其 进行 提取 。 因 此 ， 


未 来 将 着 重 研 究 弱 信和 号 


识别 领域 的 文本 去 噪 工作 ,为 


决策 者 提供 更 精准 的 预警 信息 。 
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LO Research on Weak Signal Recognition Based on LDA-BERT Fusion Model 
= Yang Bo Shao Wanting'” 

e ! School of Information Management, Jiangxi University of Finance and Economics, Nanchang 330013 
institute of Information Resources Management, Jiangxi University of Finance and Economics, Nanchang 330013 
CN Abstract; | Purpose/significance | Aiming at the problem that the existing weak signal automatic recognition re- 
和 is still incomplete, this paper proposes a weak signal automatic recognition method based on the LDA-BERT 
fusion model. | Method/process | Based on the unsupervised LDA topic model, the text data set was classified by 


>. 


ic, and the topic and term double-layer filter function was constructed to extract early warning signals from the re- 


ts of topic classification. The weakness of the topic was evaluated by the three major metrics of close centrality , 
fOpic weight and topic autocorrelation, and weak signals were extracted based on the normalized frequency and proba- 
bility of terms within the topic. Finally, the BERT deep learning model was used to expand the weak signal context 
Gad similar words from the semantic level. | Result/conclusion | Taking the re-eruption of the epidemic in early Jan- 
uary 2021 as an example, the constructed system model was verified using the social media news data set of the three 
months before the outbreak. The experimental results show that the method can effectively detect the relevant weak 
signals and dig out the evolution characteristics of the weak signals that gradually increase over time. In addition, the 
fusion model not only realizes the automatic identification of weak signals, but also shows stronger result interpret- 
ability than a single model. 
LDA-BERT model 


Keywords; weak signals new crown pneumonia epidemic 
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